Géometries de mondes abstraits

Régionalisation d’un semis de population en fonction d’une distance

Auteur·rice

Claude Grasland

Date de publication

2024-11-18

INTRODUCTION

Objectif

Nous souhaitons montrer comment le choix d’une géométrie va influencer la perception des proximités entre des individus qui occupent des positions à l’intérieur d’un espace. Après avoir défini des distances entre les individus dans une géométrie, nous chercherons à définir des régions regroupant les individus de façon à maximiser un critère d’accessibilité défini comme suit

  • les individus situés dans une même région doivent être le plus proche possibles
  • les individus situés dans deux régions différentes doivent être le plus éloignés possibles

Il faudra donc définir une mesure de proximité \(D_{ij}\) entre les positions occupées par les individus puis choisir un critère à optimiser \(H(D,R)\). Mais on pourra également travailler sur l’ensemble des positions possibles (qu’elles soient ou non occupées par un individu) et définir une partition de l’ensemble de l’espace en fonction de la proximité des positions inoccupées avec les groupes d’indvidus établis au cours de la première étape de l’analyse.

Dispositif expérimental

On suppose que le monde est décrit par une ou plusieurs dimensions \(D_1, D_2, D_3, ...D_k\) qui définissent des positions pouvant être occupées par des individus \(i_1, ...i_n\) qui forment une population.

On suppose que chaque dimension comporte isolément 100 positions possibles que l’on peut noter de de 1 à 100. Lorsque l’on croise deux dimensions le nombre de position est multiplié et non pas additionné. Un espace à 2 dimensions offrira donc 10 000 positions et un espace à 3 dimensions 1 million de positions.

Nous nous limiterons dans notre analyse au cas des espaces à une ou deux dimensions et nous partirons systématiquement d’un même tableau de données composé de 12 individus et décrits par le tableau suivant :

code D1 D2
A 1 48
B 17 90
C 22 6
D 26 70
E 48 31
F 52 54
G 56 67
H 58 50
I 72 18
J 76 86
K 78 39
L 99 16
  • La position D1 a été réalisée en effectuant un tirage uniforme aléatoire de 4 points entre 1 et 30, 4 points entre 41 et 60 et 4 points entre 71 et 100. Elle a donc exclu les positions \([31;40]\) et \([61 ; 70]\) du tirage au sort.

  • Les positions D2 a été en revanche construites par un tirage aléatoire uniforme sur l’ensemble de l’intervalle \([1;100]\)

A. MONDES UNIDIMENSIONNELS

A.1 Le monde est un segment …

Imaginons que le monde se réduise à une ligne comme la future ville de Neom en Arabie Saoudite

Données

On ne considère que la dimension D1 et on définit un segment de longueur 100 sur lequel se distribuent les 12 individus

X
A 1
B 17
C 22
D 26
E 48
F 52
G 56
H 58
I 72
J 76
K 78
L 99

Visualisation

On peut visualiser facilement le résultat en adoptant une direction quelconque puisque notre ligne n’est pas orientée vers une direction particulière.

Distances

Dans notre monde linéaire on construite une distance \(D_{ij}\) qui sera par définition une fonction de la seule variable de localisation \(X_i\). Un choix évident est la différence en valeur absolue :

\(D_{ij} = |X_i - X_j|\)

Comme notre monde est fini on peut normaliser la distance sur l’intervalle \([0 ; 1]\) en divisant les valeurs de distance par la valeur maximale possible (de préférence à la valeur maximale observée).

\(D_{ij}^{norm} = |X_i - X_j|/ D_{max}\)

Le maximum possible étant pour nous égal ici à \(D_{max} = 100\), la matrice de distance se calcule sans difficultés avec la fonction dist()de R-base :

Dij = dist(coo,diag = T, upper = T,method = "euclidean")
Dij = Dij/100
kable(as.matrix(Dij),
      caption = "Matrice de distance normalisée",
      digits=2)
Matrice de distance normalisée
A B C D E F G H I J K L
A 0.00 0.16 0.21 0.25 0.47 0.51 0.55 0.57 0.71 0.75 0.77 0.98
B 0.16 0.00 0.05 0.09 0.31 0.35 0.39 0.41 0.55 0.59 0.61 0.82
C 0.21 0.05 0.00 0.04 0.26 0.30 0.34 0.36 0.50 0.54 0.56 0.77
D 0.25 0.09 0.04 0.00 0.22 0.26 0.30 0.32 0.46 0.50 0.52 0.73
E 0.47 0.31 0.26 0.22 0.00 0.04 0.08 0.10 0.24 0.28 0.30 0.51
F 0.51 0.35 0.30 0.26 0.04 0.00 0.04 0.06 0.20 0.24 0.26 0.47
G 0.55 0.39 0.34 0.30 0.08 0.04 0.00 0.02 0.16 0.20 0.22 0.43
H 0.57 0.41 0.36 0.32 0.10 0.06 0.02 0.00 0.14 0.18 0.20 0.41
I 0.71 0.55 0.50 0.46 0.24 0.20 0.16 0.14 0.00 0.04 0.06 0.27
J 0.75 0.59 0.54 0.50 0.28 0.24 0.20 0.18 0.04 0.00 0.02 0.23
K 0.77 0.61 0.56 0.52 0.30 0.26 0.22 0.20 0.06 0.02 0.00 0.21
L 0.98 0.82 0.77 0.73 0.51 0.47 0.43 0.41 0.27 0.23 0.21 0.00

Partition

Dans notre espace à une dimension, la variable \(X_i\) peut correspondre indifféremment à une position spatiale ou à un attribut statistique. Le choix d’une méthode de régionalisation revient donc ici à une simple classification visant à minimiser les distances intra-classes et maximiser les distances inter-classes. Il suffit donc d’appliquer un programme de classification pour obtenir une régionalisation de notre espace. On peut utiliser ici la procédure hclust de R-base

On décide par exemple de faire 3 classes et l’on retrouve sans surprise les groupes qui avaient été favorisés dans le tirage des valeurs de la dimension D1.

Densités

Plutôt que de fixer a priori le nombre de régions, on pourrait également raisonner sur la distribution des densités de points en fonction d’une fonction décroissante de la distance, ce qui permettra de repérer des pics de forte densité (“coeurs” des régions) et des bassins de faible densité (“marges” des régions).

Supposons par exemple que nous appliquions un voisinage gaussien de portée \(\mu\) c’est à dire

\(f(D_{ij}) = exp(- \alpha D_{ij}^2)\) avec \(\alpha = ln(0.5)/\mu^2\)

On peut alors voir comment le nombre de pics de densité diminue lorsque la portée de la fonction de voisinage augmente et comment on passe de 5 pics (\(\mu = 5\)) à deux pics (\(\mu = 10\)) et finalement un seul (\(\mu = 20\)).

Ce résultat très important montre que l’on peut construire un continuum de régionalisations en faisant varier le paramètre \(\mu\) pour une certraine famille de fonction de la distance et en examinant l’évolution de la distribution des pics et des creux d’accessibilité.

A.2 Le monde est un cercle …

Imaginons maintenant que le monde se réduit à une cercle autour d’une planète, comme dans le cas des anneaux de Saturne

Données

On transfrome les coordonnées de \(D_1\) en positions angulaires sur le cercle dans le sens trigonométrique \(\theta_1 ...\theta_{12}\) qui corresponde aux longitudes sur cette planète

theta
A 3.6
B 61.2
C 79.2
D 93.6
E 172.8
F 187.2
G 201.6
H 208.8
I 259.2
J 273.6
K 280.8
L 356.4

Il s’agit apparemment de la même situation que précédemment (les valeurs de position angulaire \(\theta\) mesurées en degrés correspondent aux valeurs précédentes de X) mais la géométrie n’est plus la même ce qui change fondamentalement le calcul de distances.

Visualisation

Si l’on veut visualiser les points dans un espace à deux dimensions on peut les projeter, à la manière d’une carte du monde en projection polaire dont la longitude serait notre variable \(\theta\) et la latitude une constante égale à zéro correspondant à l’équateur. Si par exemple notre monde est une planète de rayon \(R\) = 1000 km, on aura

\(x_i = R \times cos(\theta_i)\)

\(y_i = R \times sin(\theta_i)\)

Coordonnées en projection polaire (R = 1000 km)
x y
A 998.02673 62.79052
B 481.75367 876.30668
C 187.38131 982.28725
D -62.79052 998.02673
E -992.11470 125.33323
F -992.11470 -125.33323
G -929.77649 -368.12455
H -876.30668 -481.75367
I -187.38131 -982.28725
J 62.79052 -998.02673
K 187.38131 -982.28725
L 998.02673 -62.79052

Mais en réalité il est inutile d’introduire une projection dans un espace à deux dimensions si l’on supposer que les relations ne peuvent se faire qu’en circulant le long du cercle. La visualisation correcte de ce monde n’a donc pas besoin d’une échelle de distance mais plutôt d’une échelle angulaire.

Le changement de géométrie entraîne un rapprochement spectaculaire des points \(A\) et \(L\) qui étaient auparavant les deux points les plus éloignés dans le monde linéaire.

Distances

Dans notre monde circulaire, il n’est pas possible de se déplacer en ligne droite. Les distances correspondent donc aux trajets effectués surun arc de cercle ce qui donne une valeur maximale égale à \(\pi \times R\) avec \(R\) égal au rayon du cercle. On normalise par la distance maximale qui est égale à \(\pi R\) soit 3141.5 km dans notre exemple.

Le calcul des distances angulaires est très facile avec le package circular.

Celui-ci comporte par ailleurs de très nombreuses fonctions d’analyse statistique appliqués à cette géométrie particulière du cercle Lund et Agostinelli (2004), Jammalamadaka et SenGupta (2001)

Distance circulaire normalisée
A B C D E F G H I J K L
A 0.00 0.32 0.42 0.50 0.94 0.98 0.90 0.86 0.58 0.50 0.46 0.04
B 0.32 0.00 0.10 0.18 0.62 0.70 0.78 0.82 0.90 0.82 0.78 0.36
C 0.42 0.10 0.00 0.08 0.52 0.60 0.68 0.72 1.00 0.92 0.88 0.46
D 0.50 0.18 0.08 0.00 0.44 0.52 0.60 0.64 0.92 1.00 0.96 0.54
E 0.94 0.62 0.52 0.44 0.00 0.08 0.16 0.20 0.48 0.56 0.60 0.98
F 0.98 0.70 0.60 0.52 0.08 0.00 0.08 0.12 0.40 0.48 0.52 0.94
G 0.90 0.78 0.68 0.60 0.16 0.08 0.00 0.04 0.32 0.40 0.44 0.86
H 0.86 0.82 0.72 0.64 0.20 0.12 0.04 0.00 0.28 0.36 0.40 0.82
I 0.58 0.90 1.00 0.92 0.48 0.40 0.32 0.28 0.00 0.08 0.12 0.54
J 0.50 0.82 0.92 1.00 0.56 0.48 0.40 0.36 0.08 0.00 0.04 0.46
K 0.46 0.78 0.88 0.96 0.60 0.52 0.44 0.40 0.12 0.04 0.00 0.42
L 0.04 0.36 0.46 0.54 0.98 0.94 0.86 0.82 0.54 0.46 0.42 0.00

La distance maximale est alors observée entre des points situés à l’opposé l’un de l’autre sur le cercle comme A et D. Mais en revanche les points qui étaient auparavant très éloignés dans le monde du segment comme A et L sont désormais très proches dans le monde du cercle puisque celui-ci se referme à leur niveau.

Partition

Dans notre monde circulaire, la classification est très différente de celle observée dans le monde du segment alors même que les valeurs numériques sont au départ les mêmes. C’est la projection qui diffère.

On va retenir ici 4 classes

Densités

Comme dans le cas du monde linéaire, on peut tracer des courbes de densité paramétriques pour repérer les coeurs et les marges de notre espace. On doit alors faire apport à des lois de probabilité définies sur le cercle comme la loi de von Mises.

Vu notre faible niveau en mathématique, on s’appuiera ici sur l’article Wikipedia consécré à la loi de von Mises, disponible en cinq langues seulement dont le français et l’anglais.

Dans la théorie des probabilités et en statistiques, la loi (distribution) de von Mises (appelée également distribution normale circulaire ou distribution de Tikhonov) est une densité de probabilité continue, nommée d’après Richard von Mises. Elle donne une bonne approximation de la loi normale périodique (en), qui est l’analogue circulaire de la loi normale. Un angle de diffusion \(θ\) parcourant un cercle est une variable aléatoire suivant la loi normale périodique avec une variance non périodique qui croît linéairement en temps. D’un autre côté, la loi de von Mises est la distribution stationnaire d’un processus de diffusion et déviation sur le cercle dans un potentiel harmonique, i.e. avec une orientation guidée.La loi de von Mises est la loi de probabilités à entropie maximale pour une valeur donnée de \(z = e^{i\theta}\). La loi de von Mises est un cas particulier de la loi de von Mises-Fisher sur la N-sphère. Source : Wikipedia France, consulté le 27 nov. 2024

Densité de probabilité de la loi de von Mises

On utilise ici la méthode de lissage par kernel paramétrique (vonmises) du package circularavec des paramètres kappa de valeur 9 , 18 et 36.

On retouve la même méthode de calcul des densités que dans le monde linéaire, mais appliqué aux coordonnées angulaires. Mais avec une différence importante qui est ici la permanence de l’existence de 4 pics de densité aux différentes échelles de généralisation.

B. MONDES BIDIMENSIONNELS

B.1 Le monde est un échiquier

L’image la plus simple qui vienne à l’esprit lorsque l’on évoque un monde fini à deux dimensions est celle d’un échuiquier ou d’un damier. Comme nous avons introduit l’hypothèse que chaque individu occupait une position et que deux individus ne pouvaient pas occuper la même position, on peut définit des cases ou carreaux correspondant aux différentes positions autorisées. Le faite que ces carreaux soient de forme carrée n’est évidemment pas obligatoire (on aurait pu choisir des triangles ou des hexagone pour produire un pavage de l’espace) mais cela est suffisant dans un premier temps pour formuler quelques hypothèses sur les distances à l’intérieur de ce monde et cela permet de retrouver un certain nombre de métriques théoriques (euclidienne, Manhattan, Chebyshev, …) pour définir les distances entre les individus.

Données

On reprend telle quelle les données de position des dimensions D1 et D2 en soustrayant juste la valeur de 0.5 pour placer nos individus au centre des cases d’un échiquier formant un carré de dimension 100 x 100 avec un reprère orthonormé placé au point (0,0).

X Y
A 0.5 47.5
B 16.5 89.5
C 21.5 5.5
D 25.5 69.5
E 47.5 30.5
F 51.5 53.5
G 55.5 66.5
H 57.5 49.5
I 71.5 17.5
J 75.5 85.5
K 77.5 38.5
L 98.5 15.5

Visualisation

La visualisation est immédiate et facile, tous les logiciels de cartographie ou de statistique étant habitué à cette géométrie

Distance

Un grand nombre de métriques sont adaptées à cette géométrie. On peut notamment utiliser la famille des distances de Minkowski qui est uneformule générale de calcul des distance entre deux points dans l’espace dimensionnel n, applicable au cas de l’espace de dimension 2 qui nous intéresse ici. Elle est une généralisation des distances Euclidienne, de Manhattan et de Tchebychev. Dans un espace de dimension n, la distance de Minkowski de paramètre \({\lambda}\) s’écrira :

\(D^{Mink}(a,b) = \sqrt[\lambda]{\sum^n_{i=1}{(|a_i-b_i|)^\lambda})}\)

Le paramètre \(\lambda\) est l’ordre de la métrique de Minkowski. Pour différentes valeurs de \(\lambda\), la distance peut être calculée d’au moins trois manières différentes :

  • \(\lambda = 1\) : Distance de Manhattan (métrique \(L^1\))

  • \(\lambda = 2\) : Distance Euclidienne (métrique \(L^2\))

  • \(\lambda = \infty\) : Distance de Tchebychev (métrique \(L^\infty\))

Si l’on retient par exemple la distance euclidienne et si on normalise par la plus grande distance possible (\(100\sqrt2\)) qui correspond à la distance entre deux points opposés du carré on obtient la matrice de distance suivante :

Matrice de distance normalisée
A B C D E F G H I J K L
A 0.00 0.32 0.33 0.24 0.35 0.36 0.41 0.40 0.55 0.59 0.55 0.73
B 0.32 0.00 0.60 0.16 0.47 0.36 0.32 0.41 0.64 0.42 0.56 0.78
C 0.33 0.60 0.00 0.45 0.26 0.40 0.49 0.40 0.36 0.68 0.46 0.55
D 0.24 0.16 0.45 0.00 0.32 0.22 0.21 0.27 0.49 0.37 0.43 0.64
E 0.35 0.47 0.26 0.32 0.00 0.17 0.26 0.15 0.19 0.44 0.22 0.38
F 0.36 0.36 0.40 0.22 0.17 0.00 0.10 0.05 0.29 0.28 0.21 0.43
G 0.41 0.32 0.49 0.21 0.26 0.10 0.00 0.12 0.36 0.20 0.25 0.47
H 0.40 0.41 0.40 0.27 0.15 0.05 0.12 0.00 0.25 0.28 0.16 0.38
I 0.55 0.64 0.36 0.49 0.19 0.29 0.36 0.25 0.00 0.48 0.15 0.19
J 0.59 0.42 0.68 0.37 0.44 0.28 0.20 0.28 0.48 0.00 0.33 0.52
K 0.55 0.56 0.46 0.43 0.22 0.21 0.25 0.16 0.15 0.33 0.00 0.22
L 0.73 0.78 0.55 0.64 0.38 0.43 0.47 0.38 0.19 0.52 0.22 0.00

Partition

On applique comme précédemment un programme de classification sur la matrice de distancepour obtenir une régionalisation de notre espace.

On décide par exemple de faire 4 classes :

Densités

Plusieurs méthodes sont possibles pour déterminer les trajectoires de regroupement des points en fonction d’une fonction d’interaction spatiale. Par exemple on peut utiliser comme dans le monde segmentaire la méthode des potentiels avec voisinages gaussiens de portées successives (5,10,15,20). On vot alors très bien comment le nombre de pics de potentiel (donc de densité) va progressivement diminuer pour passer de \(n\) pics (nombre de positions occupées) pour se réduite à un pic unique.

B.2 Le monde est un disque

L’idée que le Monde soit un disque est une idée ancienne et même si la science a fini par l’infirmer elle demeure sans nul doute présente dans beaucoup de représentations contemporaines, propagées notamment par les théories du complot sur Youtube (Mohammed 2019). Il semble aussi que la conception d’une Terre plate soit une étape dans le dévloppement cognitif des enfants (Vaiopoulou et Papageorgiou 2018). Enfin, beaucoup de romans, notamment de science fiction ont utiliséce modèle pour construire des univers imaginaires, le plus célèbre étant sans doute celui des Annales du Disque Monde et la création annexe par l’auteur d’une série d’ouvrages portant sur la Science of Discworld (Stewart, Cohen, et Pratchett 2011) .

The Disc, as it’s referred to in the novel, is quite literally a disc. The flat planet is carefully balanced on the backs of four elephants – Berilia, Tubul, Great T’Phon, and Jerakeen – who in turn stand on the Star Turtle, the Great A’Tuin, as it swims through space. […] Since the Disc is flat, there are no cardinal directions. Instead, the four directions are Hubwards (towards the Hub), Rimwards (towards the Rim), Turnwise (the direction that the Disc rotates in), and Widdershins (opposite to Turnwise). This leads to an endless onslaught of puns and geographical jokes. At the end of the book we discover the Circumfence, the rope fence that lines the edge of the Disc to help ensure no one falls off. There’s also the beauty of the Counterweight Continent – a land fabled to be made out of pure gold that exists to keep the Disc from tipping over. Everything we learn about the geography of Discworld is strangely cohesive while being entirely silly.” Source : Fernandez W., The Color of Magic, Consulté le 21/11/2024

Dans la perspective d’abstraction qui est la nôtre, un monde fini en forme de disque constitue un cas particulièrement intéressant puisque les positions peuvent y être mesurées par un jeu de coordonnées à la fois métrique et angulaire, ce qui revient en pratique à combiner les deux mondes vus précédemment : segment et cercle.

Données

On reprend les positions angulaires \(\theta_1 ...\theta_{12}\) issues de la variable D1 et on ajoute 12 coordonnées de rayon \(\rho_1 ...\rho_{12}\) qui mesurent la distance au centre. On fixe la distance maximale au centre à 1

theta rho
A 3.6 0.48
B 61.2 0.90
C 79.2 0.06
D 93.6 0.70
E 172.8 0.31
F 187.2 0.54
G 201.6 0.67
H 208.8 0.50
I 259.2 0.18
J 273.6 0.86
K 280.8 0.39
L 356.4 0.16

Visualisation

On peut propooser une visualisation planaire en projetant les coordonnées dans un espace euclidien à l’aide des formules de transformation des coordonnées polaires précédentes :

\(x_i = \rho_i \times cos(\theta_i)\)

\(y_i = \rho_i \times sin(\theta_i)\)

Mais en réalité, la propriété fondamentale d’un monde de ce type est qu’il n’existe pas de direction privilégiée de type “Nord”, “Sud”, “Est” ou “Ouest”. Il y a en revanche un centre et une périphérie (définis par la position sur la coordonnée sur \(\rho\)) et une direction de rotation qui suit le sens trignométrique (valeurs croissantes de \(\theta\)) ou le sens des aiguilles d’une montre (valeurs décroissantes de \(\theta\))

Distances

Dans le monde du disque il existe de très nombreuses possibilités de mesurer les distances, conduisant chacune à des formes différentes de regroupement des points en fonction de leur proximité. D’une manière générale on peut écrire :

\(D_{ij} = f(\rho_i, \theta_i, \rho_j, \theta_j)\)

On peut par exemple imaginer une décomposition additive de la fontion \(f\) en deux fonctions \(f_1, f_2, f_3\) telles que :

\(D_{ij} = f_1(\rho_i,\rho_j) + f_2(\theta_i, \theta_j)\)

On retrouve ainsi différences fonctions de distances utilisées en géographie urbaine : la distance centrale, la distance périphérique et la distance circumradiale

La distance centrale fait l’hypothèse que tous les déplacements doivent passer par le centre du disque en suivant les radiales. Ce qui donne :

\(D_{ij}^{Ctr} = \rho_i + \rho_j\)

La distance périphérique fait l’hypothèse que tous les déplacements dovent passer par la bordure externe du disque car le centre est saturé.

\(D_{ij}^{Per} = (R - \rho_i)+ (R- \rho_j) + 2 \pi R \frac{|\theta_i-\theta_j|}{360}\)

La distance circumradiale suppose quant à alle que les déplacements peuvent s’effectuer aussi bien à l’aide de radiales que de périphériques ce qui suppose que le réseau de transport combine les deux types d’axes. Elle constitue un équivalent de la distance de Manhattan mais appliquée à des villes de plan radioconcentriques comme Sfax. On peut la paramétrer à l’aide de coefficients \(\alpha\) et \(\beta\) pour tenir compte de vitesses différentes de circulation sur les radiales ou les périphériques. Elle possède la propriété d’admettre une infinité d’itinéraires différents puisque le plus court chemin peut s’effectuer selon différentes radiales ou différents périphériques.

\(D_{ij}^{CR} = \frac {\alpha|\rho_i - \rho_j| + \beta \frac{ |\theta_i-\theta_j]|}{\pi}}{\alpha+\beta}\)

Essayons à titre d’exemple de la calculer la distance circumradiale pour les paramètres \(\alpha = \beta = 1\), c’est-à-dire en accordant la même importance aux différences angulaires et aux différences radiales.

Distance circumradiale
A B C D E F G H I J K L
A 0.00 0.37 0.42 0.36 0.56 0.52 0.54 0.44 0.44 0.44 0.28 0.18
B 0.37 0.00 0.47 0.19 0.60 0.53 0.50 0.61 0.81 0.43 0.64 0.55
C 0.42 0.47 0.00 0.36 0.38 0.54 0.64 0.58 0.56 0.86 0.60 0.28
D 0.36 0.19 0.36 0.00 0.42 0.34 0.31 0.42 0.72 0.58 0.63 0.54
E 0.56 0.60 0.38 0.42 0.00 0.15 0.26 0.20 0.30 0.56 0.34 0.57
F 0.52 0.53 0.54 0.34 0.15 0.00 0.11 0.08 0.38 0.40 0.34 0.66
G 0.54 0.50 0.64 0.31 0.26 0.11 0.00 0.11 0.41 0.30 0.36 0.68
H 0.44 0.61 0.58 0.42 0.20 0.08 0.11 0.00 0.30 0.36 0.26 0.58
I 0.44 0.81 0.56 0.72 0.30 0.38 0.41 0.30 0.00 0.38 0.17 0.28
J 0.44 0.43 0.86 0.58 0.56 0.40 0.30 0.36 0.38 0.00 0.25 0.58
K 0.28 0.64 0.60 0.63 0.34 0.34 0.36 0.26 0.17 0.25 0.00 0.32
L 0.18 0.55 0.28 0.54 0.57 0.66 0.68 0.58 0.28 0.58 0.32 0.00

Partition

L’arbre nous suggère 4 classes que l’on peut visualiser ainsi

L’image obtenu est de prime abord assez perturbante puisque des points qui nous semblent proches (en distance euclidienne) se retouvent en fait séparés dans des classes différentes et des points apparemment éloignés sont regroupés. La difficulté vient du fait que notre oeil regroupe de façon euclidienne alors que la distance qui est ici à l’oeuvre (circumradiale) opère différemment. Elle conduit en particulier à rapprocher les points localisés dans un même secteur angulaire c’est-à-dire ayant des valeurs proches de \(\theta\). Deux points centraux peuvent alors être très éloignés s’ils sont situés de part et d’autre du centre.

Densité

Le calcul des densités avec cette géométrie pour différentes portées de lissage est assez complexe … Nous procédons ici juste à un calcul approximatif pour des voisinages gaussiens de portée 0.1 et 0.2 en distance circumradiale.

Les couleurs sont calculées en fonction de la valeur du potentiel selon une échelle multiplicative. On remarque que des zones très proches du centre (ex. voisinage du point C) peuvent avoir des densités très faibles car elles ont peu d’autres points dans leur secteur angulaire. Inversement des points apparamment éloignés mais proches en terme angulaire ou en terme de distance au centre peuvent créer des pics locaux(cas des points B et D).

N.B. : J’ai l’impression de réinventer la lune faute de recherches bibliographiques suffisante. Mais who knows ?

B.3 Le monde est un triangle

Les diagrammes triangulaires aussi appelés ternaires (ternary diagram) correspondent à un cas particulier de monde bidimensionnel mais construit à partir de trois variables liées par une relation. qui fait que chacune des variables peut se déduire des deux autres. On posera plus précisément que la somme des trois composantes doit toujours être égale à 1 pour chacun des éléments de la population décrit par les rois composantes.

\(\forall i \in \{1,n\} \space \space D_1(i) + D_2(i) + D_3(i) = 1\)

Ce type de diagramme a été par exemple utilisé en minéralogie pour décrire la composition de roches composées de trois types de minéraux. Ou bien en économie dans la théorie de Rostow pour décrire le passage d’une économie du secteur primaire au secteur secondaire et finalement tertiaire.

Dans une perspective plus abstraite, la géométrie ternaire est une variante intéressante du monde de l’échiqier qui possède certaines propriétés singulières.

Données

Pour construire un monde triangulaire, nous allons transformer nos trois dimensions initiales \(D_1, D_2, D_3\) en coordonnées \(x,y,z\) en appliquant les transformations suivantes :

\[ \left\{ \begin{array}{lll} x_i = \frac{D_1(i)}{D_1(i)+D_2(i)+D_3(i)} \\ y_i = \frac{D_2(i)}{D_1(i)+D_2(i)+D_3(i)} \\ z_i = \frac{D_3(i)}{D_1(i)+D_2(i)+D_3(i)} \end{array} \right. \]

Mais on peut aussi considérer s’il n’y a que deux dimensions finies que la troisième coordonnée est la moyenne des complémentaire des deux précédentes, ce qui donne :

\[ \left\{ \begin{array}{lll} \omega(i) = \frac{(max(D_1)-D_1(i)) + (max(D_2)-D_2(i))}{2}\\ x_i = \frac{D_1(i)}{D_1(i)+D_2(i)+\omega(i)} \\ y_i = \frac{D_2(i)}{D_1(i)+D_2(i)+\omega(i)} \\ z_i = \frac{D_3(i)}{D_1(i)+D_2(i)+\omega(i)} \end{array} \right. \]

Dans notre exemple, les deux dimensions \(D_1\) et \(D_2\) ont chacune un maximum de 100 de sorte qu’on peut en déduire facilement une troisième coordonnée sans faire intervenir une dimension supplémentaire

Coordonnées triangulaires
x y z
A 0.01 0.39 0.61
B 0.11 0.59 0.30
C 0.19 0.05 0.75
D 0.18 0.47 0.35
E 0.34 0.22 0.43
F 0.34 0.35 0.31
G 0.35 0.41 0.24
H 0.38 0.32 0.30
I 0.50 0.12 0.38
J 0.42 0.48 0.10
K 0.49 0.25 0.26
L 0.63 0.10 0.27

Visualisation

Compte-tenu des spécificités des liaisons entre les trois coordonnées (métrique oblilinéaire), il est préférable de faire appel à des packages spécialisés pour visualiser les points dans ce type de géométrie.

Il existe un grand nombre de packages dédiés à la visualisation de diagramme ternaires dans R, parmi lesquels on peut citer ggtern, plotlyet Ternary. Le choix de l’un ou l’autre de ces packages dépend des objectifs poursuivis. Nous optons ici pour le package Ternaryqui offre de nombreuses possibilités de visualisation mais aussi de traitement.

  • ggtern est une extension de ggplot2 mise au point par Nicholas Hamilton et est donc bien adapté à des visualisations statiques pour les personnes habituées à la logique de ggplot2.
  • plotly permet grâce à son type d’objet scatterternaryde construire des diagrammes ternaires dynamiques bien adaptés au web. Mais il comporte également des outils assez raffinés de délimitation de lignes ou de zones à l’intérieur de ces diagrammes.
  • Ternary semble enfin le plus prometteur pour notre objectif car il offre non seulement des possibilités de visualisation mais aussi de traitement, notamment pour le calcul de densités et le tracé des isolignes associées.

Mais il en existe sans nul doute d’autres …

Distance

Il existe de nombreuses distances possibles dans un triangle, mais l’une des plus logique semble être la distance oblilinéaire qui corresspond au plus court chemin en ne se déplaçant que selon l’une des trois directions du triangle. La distance sera plus ou moins longue selon que l’on passe par les axes \((x,y)\), \((y,z)\) ou \((x,z)\). On choisira donc la distance la plus courte parmi les trois types d’itinéraires

\(D^{xy}(i,j) = |x_i-x_j| + |y_i-y_j|\)

\(D^{yz}(i,j) = |y_i-y_j| + |z_i-z_j|\)

\(D^{xz}(i,j) = |x_i-x_j| + |z_i-z_j|\)

\(D_{min}^{xyz}(i,j) = min(D^{xy}(i,j), D^{yz}(i,j), D^{xz}(i,j))\)

Par exemple si on considère les point \(i(0,50,50)\) et le point \(j(50,20,30)\) on a :

\(D^{xy}(i,j) = |0-50| + |50-20| = 80\)

\(D^{yz}(i,j) = |50-20| + |50-30| = 50\)

\(D^{xz}(i,j) = |0-50| + |50-30| = 70\)

\(D_{min}^{xyz}(i,j) = min(80, 50, 70) = 50\)

Le plus court chemin est donc ici celui qui emprunte les axes \(y\) et \(z\) mais, comme dans le cas de la distance de Manhattan, il existe une infinité d’itinéraires possibles entre les deux points qui respectent la condition de plus court chemin et qui correspondent à un trapèze.

La matrice de distance entre nos 12 points pour cette métrique de plus court chemin oblilinéaire est la suivante

Distance oblilinéaire
A B C D E F G H I J K L
A 0.00 0.30 0.33 0.26 0.34 0.33 0.37 0.37 0.49 0.50 0.48 0.62
B 0.30 0.00 0.53 0.11 0.36 0.23 0.24 0.27 0.46 0.31 0.38 0.52
C 0.33 0.53 0.00 0.42 0.32 0.45 0.52 0.46 0.38 0.65 0.49 0.48
D 0.26 0.11 0.42 0.00 0.25 0.16 0.17 0.20 0.35 0.25 0.32 0.45
E 0.34 0.36 0.32 0.25 0.00 0.13 0.20 0.13 0.15 0.33 0.17 0.28
F 0.33 0.23 0.45 0.16 0.13 0.00 0.07 0.04 0.23 0.20 0.15 0.29
G 0.37 0.24 0.52 0.17 0.20 0.07 0.00 0.09 0.29 0.13 0.17 0.31
H 0.37 0.27 0.46 0.20 0.13 0.04 0.09 0.00 0.20 0.19 0.12 0.25
I 0.49 0.46 0.38 0.35 0.15 0.23 0.29 0.20 0.00 0.35 0.12 0.13
J 0.50 0.31 0.65 0.25 0.33 0.20 0.13 0.19 0.35 0.00 0.23 0.37
K 0.48 0.38 0.49 0.32 0.17 0.15 0.17 0.12 0.12 0.23 0.00 0.14
L 0.62 0.52 0.48 0.45 0.28 0.29 0.31 0.25 0.13 0.37 0.14 0.00

Partition

L’arbre nous suggère 3 classes que l’on peut visualiser ainsi :

Densité

Le package Ternary offre a première vue une fonction de calcul des densités ce qui facilité l’analyse des pics de concentration à différentes échelles selon un paramètre bandwidth (Bw).

On repère bien sur les deux figures la façon dont s’opère la fusion des pics de densité et la possibilité que cela offre de définir des régionalisations multi-scalaires. Mais il faudrait vérifier si le package utilise bien la distance oblilinéaire plutôt qu’une simple distance euclidienne ce qui ne serait pas logique par rapport aux hypothèses précédentes. Or, on a bien l’impression au vu des figures que le calcul est effectué en distance euclidienne puisque des cercles apparaissent autour des points isolés.

B.4 Le monde est un tore

La nature circulaire des angles fait que l’angle bivarié \((\theta,\phi)\) est sur le tore, qui peut être intégré comme une variété (manifold) bidimensionnelle dans \(R^3\), et peut être coupé et aplati comme un carré \(T^2 = [-\pi,\pi) \times [-\pi,\pi)\) sur \(R^2\). Par conséquent, un \((-\pi,-\pi)\) est plus proche de \((\pi - \epsilon ,\pi - \epsilon )\) que \((-\pi +2 ,-\pi +2 )\) pour un certain \(\epsilon >0\). En raison de cette contrainte géométrique, la plupart des méthodes de clustering prêtes à l’emploi ne sont pas applicables, du moins pas sans une adaptation appropriée.

Source : Jung, Park, et Kim (2021)

Données

Comme dans le cas du monde circulaure On transforme les coordonnées \(D_1\) en positions angulaires sur le cercle dans le sens trigonométrique \(\theta_1 ...\theta_{12}\) et on effectue la même opération pour \(D_2\) afin d’obtenir un second jeu de coordonnées \(\phi_1 ...\phi_{12}\) comprises dans l’intervalle \([-\pi ; +\pi]\) (ou \([0; 2\pi]\) ce qui revient au même). Comme nos dimension avaient été tirées au sort sur l’intervalle \([0 ; 100]\) on applique la transformation suivante :

\(\theta(i) = \frac{2 \pi D_1(i)}{100}-\pi\) \(\phi(i) = \frac{2 \pi D_2(i)}{100}-\pi\)

theta phi
A -3.0787608 -0.1256637
B -2.0734512 2.5132741
C -1.7592919 -2.7646015
D -1.5079645 1.2566371
E -0.1256637 -1.1938052
F 0.1256637 0.2513274
G 0.3769911 1.0681415
H 0.5026548 0.0000000
I 1.3823008 -2.0106193
J 1.6336282 2.2619467
K 1.7592919 -0.6911504
L 3.0787608 -2.1362830

Visualisation

Comme il est difficile de produire une visualisation d’un tore en trois dimensions sans que certains points soient cachés, on va utiliser ici une représentation en deux dimensions qui semble identique visuellement à celle monde de l’échiquier mais qui doit s’interpréter différemment.

Figures à améliorer en réduisant les coordonnées à -pi / +pi et en éliminant la marge

Distance

On peut utiliser la fonction du package circularutilisées précédement pour calculer les distances sur le cercle en l’appliquant à chacune des dimensions. On obtient alors une distance \(D^\theta\) et une distance \(D^\phi\) que l’on peut combiner de différentes façons pour construire une distance sur le tore. La solution la plus simple est évidemment de les additionner ce qui revient à une forme de distance orthogonale sur le tore, analogue à la distance de Manhattan dans un plan euclidien avec une distance maximale égale à \(2\pi\)

\(D^{orth}(i,j) = |\theta_i-\theta_j| +|\phi_i-\phi_j|\)

Mais on peut également essayer de construire une distance équivalente à la distance euclidienne qui impliquerait des déplacements en oblique sur le tore déplié et serait alors plus courte que la distance de Manhattan. Cette solution revient à calculer la distance angulaire dans un espace à p dimensions.

\(D^{Ang}(i,j) = |\widehat{i,j}|\)

La valeur maximale de distance angulaire est alors égale à \(2\pi/\sqrt{2}\). On peut facilement calculer cette distance angulaire à l’aide de la fonction ang.pdist du package ClusTorus proposé par Jung, Park, et Kim (2021).

Pour illustrer ces deux distances, considérons à titre d’exemple les points \(C\) et \(J\) situés respectivement en bas à gauche et enhaut à droite de la figure précédente. A première vue ils semblent très éloignés (dans un monde de type échiquier) mais ils sont en fait très proche dans la géométrie du tore où l’on ressort d’un côté pour rentrer par l’autre.

Si on retient la distance angulaire et qu’on la normalise en la divisant par \(2\pi/\sqrt(2)\) pour arriver à une distance maximale de 1, la matrice de distance entre nos points est la suivante :

Distance orthogonale sur le tore
A B C D E F G H I J K L
A 0.000 0.636 0.664 0.471 0.707 0.698 0.691 0.609 0.590 0.643 0.349 0.453
B 0.636 0.000 0.237 0.310 0.727 0.710 0.640 0.810 0.750 0.583 0.886 0.447
C 0.664 0.237 0.000 0.512 0.510 0.800 0.732 0.804 0.727 0.709 0.778 0.355
D 0.471 0.310 0.512 0.000 0.633 0.432 0.426 0.534 0.940 0.742 0.808 0.754
E 0.707 0.727 0.510 0.633 0.000 0.330 0.522 0.304 0.386 0.750 0.439 0.725
F 0.698 0.710 0.800 0.432 0.330 0.000 0.192 0.102 0.582 0.566 0.424 0.855
G 0.691 0.640 0.732 0.426 0.522 0.192 0.000 0.242 0.729 0.390 0.504 0.922
H 0.609 0.810 0.804 0.534 0.304 0.102 0.242 0.000 0.494 0.569 0.323 0.753
I 0.590 0.750 0.727 0.940 0.386 0.582 0.729 0.494 0.000 0.456 0.309 0.383
J 0.643 0.583 0.709 0.742 0.750 0.566 0.390 0.569 0.456 0.000 0.665 0.535
K 0.349 0.886 0.778 0.808 0.439 0.424 0.504 0.323 0.309 0.665 0.000 0.440
L 0.453 0.447 0.355 0.754 0.725 0.855 0.922 0.753 0.383 0.535 0.440 0.000

Partition

L’arbre nous suggère 4 classes que l’on peut visualiser ainsi

La figure montre notamment un groupe régional composé des points \((B,C,L)\) qui semble contre-intuitif pour un regard habitué au monde-échiquier mais qui est parfaitement logique dans une monde en forme de tore.

Densité

B.5 Le monde est une sphère

La représentation d’un monde comme une sphère est évidemment celle qui se rapproche le plus de l’intuition que peuvent avoir les lecteurs à qui on a enseigné que la Terre est une sphère légèrement aplatie au niveau des pôles. Il faut toutefois prendre garde que cette assimilation de notre Monde à une sphère est une abstraction et qu’elle peut être remise en cause d’au moins deux façons différentes :

  • La théorie de la terre plate : Bien que la phénomène soit difficile à évaluer, il demeure certain que dans de nombreux pays il existe une proportion importante de personnes qui estiment que la terre est plate. Certaines études suggèrent même que le phénomène aurait tendance à augmenter, notamment chez les plus jeunes : “La philosophie de la Terre plate existe depuis le XIXe siècle, mais elle a récemment pris de l’ampleur en ligne, en particulier sur YouTube et Twitter. Les croyants publient des vidéos et des mèmes qui défendent l’idée d’une Terre plate et avancent des théories du complot pour expliquer tout ce qui montre que la planète est en fait un globe terrestre.”source : Pappas S., “A Third of Young Millennials Are Confused About This Incontrovertible Fact”, Live Science

  • La science de la zone critique offre une objection de nature différente en soulignant que le Monde n’est pas une surface mais plutôt un volume compris entre deux sphères où se déroule l’ensemble de l’activité des êtres vivants, humains ou non. Ce concept de zone critique (earth’s critical zone) a été utilisé dans la littérature anglophone en 1998 par Gail Ashley , spécialiste américaine de sédimentologie(Council et al. 2001). Il a ensuite été introduit en français par le géochimiste français Jérôme Gaillardet (Gaillardet 2023) au milieu des années 2000 puis largement popularisé par Bruno Latour (Latour et Weibel 2020).

On retiendra donc juste ici l’idée que la sphère est une des projections possibles du Monde (empirique) dans un monde (abstrait).

Données

Il y a plusieurs façons de définir les coordonnées d’un point sur une sphère mais il suffit en pratique de deux coordonnées et non pas trois puisqu’il s’agit d’une variété d’ordre 2 projetée dans un espace de dimension 3. Nous pouvons utiliser les coordonnées en radian \(\lambda_i\) et \(\theta_i\) définies respectivement sur les intervalles \([-\frac{\pi}{2} ; \frac{\pi}{2}]\) et \([-\pi ; \pi]\). Mais l’on pourrait aussi bien les exprimer en degré pour retrouver les formulations habituelles en géographie de latitude et longitude définies respectivement sur les intervalles \([-90 ; 90]\) et \([-180 ; 180]\)

Nous convertissons les dimensions \(D_1\) et \(D_2\) précédentes en conservant leurs bornes initiales [0 ; 100] commes limites de l’espace après sa transformation sphérique.

lambda theta latitude longitude
A -1.5393804 -0.1256637 -88.2 -7.2
B -1.0367256 2.5132741 -59.4 144.0
C -0.8796459 -2.7646015 -50.4 -158.4
D -0.7539822 1.2566371 -43.2 72.0
E -0.0628319 -1.1938052 -3.6 -68.4
F 0.0628319 0.2513274 3.6 14.4
G 0.1884956 1.0681415 10.8 61.2
H 0.2513274 0.0000000 14.4 0.0
I 0.6911504 -2.0106193 39.6 -115.2
J 0.8168141 2.2619467 46.8 129.6
K 0.8796459 -0.6911504 50.4 -39.6
L 1.5393804 -2.1362830 88.2 -122.4

Visualisation

Dans ce cas particulier de la sphère, nous disposons d’au moins deux modes de visualisation. Soit à l’aide de programmes géométriques de visualisation 3D utilisant les coordonnées sphériques \((\lambda, \theta)\), soit à l’aide de programmes géographiques qui attendent plutôt des coordonnées de latitude et longitude et permettent de les projeter de différentes manières dans le plan pour réaliser des cartes du monde.

On peut tout d’abord visualiser nos coordonnées dans le plan, ce qui correspondrait en géographie à une projection de Mercator (EPSG = 4326).

Mais on peut aussi effectuer différentes projections, par exemple en choisissant un azimuth et en visualisant la partie visible de la sphère :

Distances

Partition

Densité

Le package sm a été créé par ses auteurs pour illustrer une famille de méthodes de lissage non paramétriques décrités dans Bowman et Azzalini (1997). La finalité du package est décrite comme suit par ses auteurs :

Les fonctions de ce paquetage utilisent des méthodes de noyau pour construire des estimations non paramétriques des fonctions de densité et des courbes de régression dans une variété de contextes, et pour effectuer certaines opérations inférentielles.

En particulier, les estimations de densité peuvent être construites pour des données à 1, 2 et 3 dimensions. La régression non paramétrique pour les données continues peut être construite avec une ou deux covariables, et une variété de tests peut être effectuée. Plusieurs autres types de données peuvent être traités, notamment les données de survie, les séries temporelles, les données de comptage et les données binomiales.

Source : « sm: Smoothing Methods for Nonparametric Regression and Density Estimation » (1999)

Nous l’utiliserons principalement ici pour ses fonctions de visualisation de données sphériques et le calcul de densité de probabilité sur la sphère. Mais il possède un intérêt beaucoup plus large pour l’analyse de l’ensemble des géométries à 1, 2 ou 3 dimensions.

C. MONDES RETICULAIRES

D.1 Le monde est un graphe planaire

D.1 Le monde est un graphe non planaire

ANNEXES

Bibliographie

Bowman, Adrian W, et Adelchi Azzalini. 1997. Applied Smoothing Techniques for Data Analysis. Oxford University PressOxford. https://doi.org/10.1093/oso/9780198523963.001.0001.
Council, National Research, Commission on Geosciences, Board on Earth Sciences, et Committee on Basic Research Opportunities in the Earth Sciences. 2001. « Basic research opportunities in earth science ». https://books.google.fr/books?hl=fr&lr=&id=UzqcAgAAQBAJ&oi=fnd&pg=PT15&dq=gail+ashley+1989+Front+Matter+%7C+Basic+Research+Opportunities+in+Earth+Science+%7C+The+National+Academies+Press&ots=V5f--JJ_KO&sig=jSnFnegKmV-wolAkQ5YwMiMbBb4.
Gaillardet, Jérôme. 2023. La Terre habitable: ou l’épopée de la zone critique. La Découverte. https://books.google.fr/books?hl=fr&lr=&id=FojVEAAAQBAJ&oi=fnd&pg=PA2&dq=gaillardet+2023+la+terre+habitable&ots=QCnZ4dy0ss&sig=ViP3V3EoqNyhXj2O444rBINRejg.
Jammalamadaka, S Rao, et Ashis SenGupta. 2001. « Topics in Circular Statistics ». Series on Multivariate Analysis, avril. https://doi.org/10.1142/4031.
Jung, Sungkyu, Kiho Park, et Byungwon Kim. 2021. « Clustering on the torus by conformal prediction ». The Annals of Applied Statistics 15 (4): 15831603. https://projecteuclid.org/journals/annals-of-applied-statistics/volume-15/issue-4/Clustering-on-the-torus-by-conformal-prediction/10.1214/21-AOAS1459.short.
Latour, Bruno, et Peter Weibel. 2020. Critical zones: The science and politics of landing on earth. MIT Press. https://books.google.fr/books?hl=fr&lr=&id=ks_-DwAAQBAJ&oi=fnd&pg=PA342&dq=latour+critical+zone&ots=vzhpEp1PBy&sig=krQBN6uLDcwO8xuaEgam0UHQw3k.
Lund, Ulric, et Claudio Agostinelli. 2004. « circular: Circular Statistics ». The R Foundation. https://doi.org/10.32614/cran.package.circular.
Mohammed, Shaheed N. 2019. « Conspiracy theories and flat-earth videos on YouTube ». The Journal of Social Media in Society 8 (2): 84102. https://thejsms.org/index.php/JSMS/article/view/527.
« sm: Smoothing Methods for Nonparametric Regression and Density Estimation ». 1999. The R Foundation. https://doi.org/10.32614/cran.package.sm.
Stewart, Ian, Jack Cohen, et Terry Pratchett. 2011. The Science of Discworld II: The Globe. Random House. https://books.google.fr/books?hl=fr&lr=&id=MyozhndBMZkC&oi=fnd&pg=PA9&dq=the+science+of+discworld&ots=qaM3IIacNg&sig=lu4pLk7XjMpTcSmL_TJSrJk1RtE.
Vaiopoulou, Julie, et George Papageorgiou. 2018. « Primary students conceptions of the Earth: Re-examining a fundamental research hypothesis on mental models ». Preschool and Primary Education 6 (1): 2334. https://www.learntechlib.org/p/187380/.